N-Gram相关论文
工程建设项目施工招标投标活动是建设工程管理实践中的重要环节,其目的是维持建设工程市场秩序,促进良性公平竞争,维护项目各参与......
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡......
当前主流计算机辅助翻译系统(CAT)借助翻译记忆(TM)和术语库(TB)提高翻译效率.翻译记忆以自然句为主要匹配单位,需要整句相似或重......
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变......
自然语言是人类按照某种规则组成的语言,如汉语、英语和法语等。而自然语言处理则是利用计算机对自然语言的形、音、义等信息进行......
网络舆情热点发现是一种常用且处理速度要求较高的应用.针对网络舆情热点发现这一特殊应用场合,本文提出了一种基于随机N-Gram的文......
近年来,软件的网络化、服务化使用成为一种新的趋势。在虚拟化软件按需流式加载的执行过程中,程序会因请求缺失的数据而被阻塞直至数......
三维模型或三维物体作为三维世界的基本元素,在人类感知世界、认识世界的过程中扮演着必不可少的角色。随着计算机技术的发展,如何让......
随着网络信息量的急剧增长,如何在短时间内找到自己需要的信息成为人们关注的焦点.文本主客观分类是意见挖掘、观点抽取的核心技术......
In this paper,a new method for automatic classification of texts is presented.This system includes two phases;text pro......
工控协议是网络协议的一个分支,在工控系统的信息安全研究中,协议安全是其中相当重要的一部分。目前工控协议缺乏统一规范,产生了......
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引......
Text classification is a fundamental task in Nature language process (NLP) application.Most existing research work relie......
源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从......
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析......
互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征......
摘要:朴素贝叶斯算法由于其具有简单、稳定和高效的优点,被广泛运用在文本分类领域,但由于算法所涉及属性的独立性和同等重要性,算法的......
SIP是应用层的多媒体通信协议。SIP协议结构简洁、易于扩展,已经被广泛地应用到VoIP、多媒体会议等场景中。由于IETF在设计SIP协议......
信息技术与互联网的飞速发展,在给各行各业带来极大便利的同时,网络安全问题也愈来愈突出,各种网络安全入侵行为层出不穷。传统防......
对于社交媒体平台而言,识别和标注出特定语言的文本对于情感分类、趋势提取、预测电影评分等研究都具有重要的现实意义。传统的语......
甲基化是DNA序列化学修饰的一种形式,可以导致遗传物质的染色体的结构发生变化,因此DNA甲基化在DNA遗传表达中起着十分重要的作用......
恶意软件往往利用计算机系统漏洞和安全防御机制的落后来达到恶意破坏或窃取资料等目的。安全防御机制的目标就是能检测出恶意软件......
语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征......
随着信息技术的不断发展,各种SQL注入攻击工具层出不穷,攻击类型多变万化,SQL注入问题一直是网络安全的主要问题。因此,针对SQL注......
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直......
The explosive growth of malware variants poses a major threat to information security. Traditional anti-virus systems ba......
在如今大数据环境中包含大量不同语种的网络短文本数据,尤其是在国内多民族地区的网络环境中多种语言混杂的情况普遍存在.为了解决......
摘要:语音合成是哈萨克文信息处理技术的一个重要研究领域。哈萨克文本中的阿拉伯数字转换为其读音文本是语音合成中重要的预备工作......
摘要:在AI技术快速发展的今天,AI应该应用到每一个角落。本文选择在最常用的工具软件输入法软件中加入深度神经网络算法,利用长短期记......
本文通过对荣华二采区10...
事实验证任务要求能够从大规模的文本语料库中抽取相关的证据,并通过推理对给定的声明得出事实性的判断。现有的研究通常将检索到......
Document subjectivity analysis has become an important aspect of web text content mining. This problem is similar to tra......
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查......
This paper discusses the importance of the classification of short message, and details some key technologies related. T......
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML......
提出了一种语句级汉字输入技术,把N-gram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程.描述了拼音流自动切分......
针对哈萨克文文本中机构名构成特点,提出了一种基于N-gram语言模型的哈萨克文机构名可信度计算方法,并以机构名尾词为触发词,构建......
中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,......
以应用题自动求解为目标,以高考入学考试数学试卷中的分层抽样应用题为研究对象,重点研究了分层抽样应用题的句子语义角色识别方法......
Deep Web中,查询接口属性的抽取是Deep Web数据集成中必不可少的一个环节。本文通过将接口属性中文文本翻译成为汉语拼音和英文,利......
Deep Web中,查询接口属性的抽取是Deep Web数据集成中必不可少的一个环节。本文通过将接口属性中文文本翻译成为汉语拼音和英文,利......
Statistical language modeling techniques are investigated so as to construct a language model for Chinese text proofread......
本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的......
统计自然语言处理中,一个很复杂的问题是数据稀疏问题。主要有两种平滑方法解决:回退法和线性插值法。本文分析和比较了几种典型的......
网络入侵检测系统使用大量特征集来识别入侵,需要处理庞大的网络流量,目前大多数现有的系统缺乏实时异常检测能力.提出了一种基于......